2.4 特征工程
- 深度学习之前:人抽取图片特征然后放入svm进行学习 24 深度卷积神经网络 AlexNet
- 深度学习之后:模型自己学习特征,然后用softmax回归
- 特征工程
- 数据类型
- int/float:直接使用
- 分类数据:one-hot编码(fish,cat,dog)
- 日期:用一个特征表表示
- 特征结合
- 文本类型
- 用token次元表示
- 用词袋模型

- word embedding词嵌入:词表示成向量,一句话就是每个词的词向量加起来形成一个句子的向量
- 用词袋模型
- 用预训练的大语言模型,将文本放入模型中,得到的模型的倒数第二层就是特征
- 用token次元表示
- 图片类型
- 传统方式:SIFT(手动提取图片特征然后放入svm学习) 24 深度卷积神经网络 AlexNet
- 现在通常用预训练的深度神经网络,例如Resnet和I3D,将图片放入模型中,得到的模型的倒数第二层就是特征
- 数据类型